|
4.
一种基于提取上下文信息的分词算法
曾华琳,李堂秋,史晓东
计算机应用
2005, 25 (09):
2025-2027.
DOI: 10.3724/SP.J.1087.2005.02025
汉语分词在汉语文本处理过程中是一个特殊而重要的组成部分。传统的基于词典的分词算法存在很大的缺陷,无法对未登录词进行很好的处理。基于概率的算法只考虑了训练集语料的概率模型,对于不同领域的文本的处理不尽如人意。文章提出一种基于上下文信息提取的概率分词算法,能够将切分文本的上下文信息加入到分词概率模型中,以指导文本的切分。这种切分算法结合经典n元模型以及EM算法,在封闭和开放测试环境中分别取得了比较好的效果。
相关文章 |
多维度评价
|
|